Phonetically Rich Urdu Speech Corpus

提供者:朱述承

简介

乌尔都语语音语料库由70分钟的转录阅读语音组成,其中包括708个代表乌尔都语所有音位和三音组合的句子(来源于乌尔都语新闻文章的1800万字的语料)。它由10,101个表征和5,656个独特的单词组成。除了覆盖了乌尔都语全部的语音外,该语料库还保证了音位平衡。它也提供三音位的覆盖,但这并不是平衡的。该语料库还包含60个独特的电话语料和42,289个电话事件语料。这个语料库中包含的句子都是由训练有素的语言学家手动创建的,以适应乌尔都语独特的单词特征(使用集合封面算法进行选择)并尽可能防止附加单词。因此,虽然在语法上是正确的,但在某些情况下,句子中的单词选择可能是不寻常的。

在线访问

http://csalt.itu.edu.pk/PRUSCorpus/Online.html

下载网址

http://csalt.itu.edu.pk/PRUSCorpus/index.html

相关论文

1 Agha Ali Raza, Sarmad Hussain, Huda Sarfraz, Inam Ullah, Zahid Sarfraz, An ASR System for Spontaneous Urdu Speech, Oriental COCOSDA 2010 conference, Nov. 24-25, 2010, Katmandu, Nepal.
2 Agha Ali Raza, Sarmad Hussain, Huda Sarfraz, Inam Ullah, Zahid Sarfraz, Design and development of phonetically rich Urdu speech corpus, Proceedings of O-COCOSDA’09 and IEEE Xplore; O-COCOSDA’09, 10-13 Aug 2009, School of Information Science and Engineering of Xinjiang University, Urunqi, China (URL: http://o-cocosda2009.xju.edu.cn).